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O nowych ręcznie zrównoleglonych i znakowanych 
dwujęzycznych korpusach równoległych 
oraz ich zastosowaniach 


1. Wstęp 


Dwudziesty pierwszy wiek przyniósł badaczom szeroko rozumianych nauk huma- 
nistycznych i społecznych wiele cyfrowych zasobów i narzędzi językowych, które 
w znaczącym stopniu przyczyniają się do skoku jakościowego i ilościowego prowa- 
dzonych obecnie badań. Dowodem rosnącego zainteresowania lingwistyką cyfrową 
są liczne publikacje. Przykład analiz leksykologicznych stanowią prace W. Sosnow- 
skiego, J. Satoły-Staśkowiak, A contrastive analysis of feminitives in Bulgarian, Polish 
and Russian (Sosnowski 8x Satoła-Staśkowiak, 2019) oraz D. Blagoewej, M. P. Jaskota, 
W. Sosnowskiego A lexicographical approach to the contrastive analysis of Bulgarian 
and Polish phraseology (Blagoeva iin., 2019). Z obszaru wielojęzyczności można wska- 
zać pracę J. Fellerera Urban multilingualism in East-Central Europe: The Polish dialect 
of Late-Habsburg Lviv (Fellerer, 2020). Z kolei A. Wawer w pracy Sentiment analysis 
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for Polish podejmuje się badań nad sentymentem w języku polskim (Wawer, 2019). 
Przykładem badań nad wzorcami relacji leksykalno-semantycznych jest artykuł 
A. Dziob i M. Piaseckiego Dynamic verbs in the Wordnet of Polish (Dziob 8x Piasecki, 
2018). Natomiast M. Maziarz i E. Rudnicka rozważają kwestię rozszerzenia Word- 
Netów (słowosieci) o glosy i relacje wieloznaczne na potrzeby rozpoznawania zjawisk, 
będących skojarzeniami zmysłowymi wykraczającymi poza typowe leksykalne rela- 
cje semantyczne (Maziarz x Rudnicka, 2020). Z zakresu przekładu można wymienić 
prace Ł. Grabowskiego A corpus-driven study of translational and non-translational 
texts: The Case of Nabokovs Lolita” (Grabowski, 2012) oraz E. Kaczmarskiej Metody 
ustalania ekwiwalentów czasowników wyrażających stany emocjonalne w przekładzie 
czesko-polskim na materiale z korpusu równoległego InterCorp (Kaczmarska, 2019). 
Przykładem badań psychologicznych jest wieloautorska praca I. Kaźmierczak, J. Sa- 
rzyńskiej- Wawer, A. Wawra i M. Chądzyńskiej (Kaźmierczak i in., 2020), w której 
autorzy podejmują zagadnienie opisu krytycznych wydarzeń życiowych i ich psycho- 
logicznych konsekwencji na podstawie rodzaju języka używanego przez pacjentów 
cierpiących na depresję i jego związku z rozwojem osobowości. 

W ostatnim czasie powstają nie tylko cyfrowe zasoby językowe i narzędzia do 
automatycznego przetwarzania języka, lecz także rozbudowane infrastruktury ba- 
dawcze, które łączą rozproszone zasoby i narzędzia na jednej platformie (por. Piasec- 
ki i in., 2018). Łączenie zasobów i narzędzi wbrew pozorom nie jest procesem czysto 
mechanicznym. Towarzyszy temu nieustanne uaktualnianie i wyrównywanie wszyst- 
kich zasobów i narzędzi do najnowszych wspólnych standardów. W roku 2020 ruszy- 
ła realizacja wielkiego projektu CLARIN-PL-BIZ w ramach „Programu Operacyjne- 
go Inteligentny Rozwój 2014-2020” (POIR 4.2) w osi priorytetowej IV „Zwiększenie 
potencjału naukowo-badawczego” i działaniu 4.2 „Rozwój nowoczesnej infrastruk- 
tury badawczej sektora nauki”. Jego celem jest utworzenie platformy badawczo-roz- 
wojowej do przetwarzania języka naturalnego i eksploracji dużych zasobów danych 
językowych zapewniających dostęp do technologii językowych oraz mechanizmów 
ich łączenia z myślą o konstrukcji systemów analizy tekstów dla języka polskiego 
oraz pozostałych języków europejskich oraz hebrajskiego. Należy tu wyjaśnić, że nie- 
wielkie zbiory danych językowych można przetwarzać z zastosowaniem powszechnie 
dostępnych metod, jakie mogą być oferowane nawet w znanych edytorach tekstów 
czy popularnych przeglądarkach wielojęzycznych. Natomiast duże zbiory danych ję- 
zykowych wymagają zupełnie innych narzędzi, które są w stanie analizować te dane 
i jednocześnie dostarczać nowej informacji na ich temat. Analizy dużych zbiorów 
danych eliminują błędy, które są typowe dla analiz małych zasobów, tzw. próbek. 

W ramach powstającej platformy badawczo-rozwojowej przewidziano: 


- utworzenie centrum technologicznego (CTech), stanowiącego bazę dla 
technologii eksploracji danych językowych; 
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zastosowanie w CTech zaawansowanych technologii językowych do inte- 
ligentnego przetwarzania wielkich niejednorodnych danych na nowych 
płaszczyznach, niewspieranych przez powstałe dotychczas infrastruktury 
badawcze ani technologie; 

opracowanie i wdrożenie odpowiednich standardów konstrukcji zasobów 
i narzędzi językowych; 

opracowanie i wytworzenie nowych narzędzi analizy danych językowych, 
działających jako jedna spójna i prosta w swej istocie struktura; 
przygotowanie i dostarczenie nowych danych ręcznie znakowanych do ba- 
dań i trenowania narzędzi językowych; 

unifikacja zasobów i narzędzi językowych dla języków europejskich do po- 
staci interoperacyjnej; 

zapewnienie użytkownikom CTech pełnego i łatwego dostępu do archiwów 
zawierających zasoby, narzędzia i technologie językowe. 


Konstrukcja CTech przewidziana jest do roku 2024. Poszczególne etapy zadań 
są związane z: 


a) 
b) 
c) 
d) 
e) 


f) 


8) 


utworzeniem systemu do gromadzenia i przechowywania danych języko- 
wych; 

dostosowaniem narzędzi językowych do standardów komercyjnych i roz- 
szerzeniem ich funkcjonalności; 

utworzeniem kluczowych zasobów językowych dla języka polskiego połą- 
czonych z zasobami angielskimi, bułgarskimi, litewskimi, słoweńskimi, ro- 
syjskimi i in. oraz z Linked Open Data'; 

opracowaniem narzędzi do analizy wydźwięku oraz emocji; 

konstrukcją środowiska informatycznego do tworzenia systemów dialogo- 
wych; 

wytworzeniem narzędzi do wydobywania informacji z danych tekstowych, 
w tym bazujących na semantycznej analizie tekstu i elementach analizy dys- 
kursu; 

opracowaniem ogólnego systemu do odpowiadania na pytania w języku na- 
turalnym. 


W punkcie c) opisane zadanie związane z utworzeniem kluczowych zasobów 
językowych dla języka polskiego połączonych z zasobami bułgarskimi, litewskimi, 
słoweńskimi i rosyjskimi obejmuje między innymi zaprojektowanie i konstrukcję 





! Ten termin łączy w sobie dwa pojęcia: danych otwartych (Open Data) i danych połączonych (Linked 
Data). O ile pojęcie danych otwartych jest oczywiste, o tyle danych połączonych wymaga krótkiego wyja- 
śnienia. Za dane połączone uważa się kolekcje różnych zbiorów danych powiązanych ze sobą strukturalnie 
w jedną sieć. 
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czterech ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusów równo- 
ległych (polsko-bułgarskiego, polsko-litewskiego, polsko-słoweńskiego i polsko-ro- 
syjskiego). 


2. Cel konstrukcji ręcznie zrównoleglonych i znakowanych 
dwujęzycznych korpusów równoległych 


Głównym celem utworzenia czterech wyżej wymienionych zbiorów danych jest udo- 
stępnienie przedstawicielom nauk humanistycznych i społecznych oraz programi- 
stom zajmującym się projektowaniem i wytwarzaniem narzędzi do przetwarzania 
języka naturalnego (NLP)? wysokiej jakości ręcznie zrównoleglonych i znakowanych 
równoległych dwujęzycznych zasobów polsko-bułgarskich, polsko-litewskich, pol- 
sko-rosyjskich i polsko-słoweńskich. 

Ci pierwsi odbiorcy uzyskają dostęp do tych korpusów w rozbudowanej przyja- 
znej użytkownikowi wielojęzycznej przeglądarce webowej KonText* (KonText, b.d.; 
Machalek, 2020). Dzięki skrupulatnemu doborowi utworów reprezentujących moż- 
liwie najszerszy zestaw stylów językowych, zaawansowanemu wstępnemu przetwo- 
rzeniu i oczyszczeniu tekstów” oraz ręcznie przeprowadzonym segmentacji i wielo- 





+ Przykłady narzędzi NLP: systemy do przechowywania i udostępniania danych językowych, wyszu- 
kiwarki korpusowe, analizatory cech gramatycznych, składniowych, stylometrycznych, anotatory znaku- 
jące/kodujące zasoby językowe (np. tagery, lematyzatory), syntezatory mowy, systemy do przetwarzania 
mowy itd. 

* KonText jest to zaawansowana nieustannie modernizowana webowa wyszukiwarka korpusowa 
udostępniająca użytkownikowi szereg sposobów przeszukiwania zasobów, w tym zaawansowany z zasto- 
sowaniem języka zapytań CQL (ang. Corpus Query Language) obsługującego atrybuty, operatory, wyra- 
żenia regularne, klasy i fleksemy słów, kategorie gramatyczne i metaanotację. KonText zapewnia szczegó- 
łowe profilowanie (sortowanie, filtrowanie) wyszukiwanych konkordancji zarówno w lewym jak i prawym 
kontekście od wyszukanej formy (KWIC: Key Word In Context). Ponadto umożliwia obliczenie szeregu 
automatycznie generowanych miar i zastosowanie wielu innych przydatnych opcji i narzędzi. Na stronach 
Clarin-PL jest dostępna instrukcja do wyszukiwarki korpusowej KonText https://nextcloud.clarin-pl.eu/ 
index.php/s/fzAZg9xbxA4YEdu oraz ściągawka dla instrukcji do KonTextu https://nextcloud.clarin-pl.eu/ 
index.php/s/IslriR9v5Hopamlpdfviewer. 

* Zaawansowane wstępne przetworzenie tekstów obejmuje korektę pisowni (w tym usunięcie ligatur, 
znaków technicznych, korektę skrótów, dodanie wymaganych lub usunięcie zbędnych spacji itd.), wyróż- 
nienie najmniejszych jednostek czyli tokenów. W przypadku części filmowych list dialogowych wstęp- 
ne przetworzenie tekstów obejmuje korektę tłumaczenia i łagodne uzgodnienie treści obu wersji języko- 
wych, np. PL Byliśmy na wycieczce w Universal Studio, a potem w woskowym muzeum Hollywood. || UK 
Mu xoduru Ha ekckypciło no kinocmydii JJoexcenka, a nomim Hdapni eo0u6 mene y myseii sockoeux Pieyp 
Bepxoenoi Padu. > PL Byliśmy na wycieczce w Universal Studios, a potem w Muzeum Figur Woskowych 
w Hollywood. || UK Mu xoduzu ua ekckypciło no Cmydii Universal, a nomim dapni e00u6 mene 8 Tonni- 
Gydcbkuńi myseli eockoeux Pizyp. 
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poziomowej anotacji te korpusy staną się wartościowym obiektem analiz, w których 
znajdą zastosowanie następujące metody badawcze (por. Kaczmarska, 2019): 


i. — sterowane korpusem (ang. corpus-driven approach); 

ii. oparte na korpusie (ang. corpus-based lub corpus-supported approach); 

iii. ilustrowane przykładami korpusowymi (corpus-illustrated lub corpus-in- 
formed approach); 

iv. mieszane, łączące analizę danych korpusowych i niekorpusowych (takich 
jak wywiady, ankiety) (ang. corpus-assisted analysis); 

v. generowane korpusem (ang. corpus-induced approach). 


Kolejność wyszczególnienia metod badawczych odzwierciedla typowe zastoso- 
wania ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusów równole- 
głych w naukach humanistycznych i społecznych. W pierwszej kolejności te korpusy 
są przeznaczone do badań teoretycznych (por. Koseska i in., 2007, 2009) i statystycz- 
nych (ilościowe połączone z analizą jakościową, np. częstość użycia zaimka osobowe- 
go w funkcji wykładnika określoności w językach polskim i litewskim, por. Roszko, 
2015), w dalszej zaś — do typowych badań materiałowych i komercyjnych badań sto- 
sowanych. Wymieniona w punkcie i metoda opisuje badania prowadzące do formuło- 
wania nowych teorii. W tej metodzie odrzuca się wstępne formułowanie hipotez (por. 
Grabowski, 2012, 2015, ss. 28-29). W punkcie ii mowa jest o badaniach, w których 
wyekscerpowane z korpusów fakty służą weryfikacji uprzednio znanej lub na cele pro- 
wadzonych badań postawionej hipotezy (por. Grabowski, 2015, ss. 28-29). Badania 
ilustrowane przykładami korpusowymi (punkt iii) są kolejnym szczególnym zasto- 
sowaniem ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusów rów- 
noległych*, które sprawdzą się jako przybliżony” tzw. zbiorowy wyważony informator 
cyfrowy. Wartość argumentacyjna dowodów bazujących na ręcznie zrównoleglonych 
i znakowanych dwujęzycznych korpusach równoległych jest siłą rzeczy wyższa od 
tych, których podstawą są częściowo lub całkowicie automatycznie generowane 
korpusy dwujęzyczne. Rozszerzeniem przedstawionej w punkcie iii metody jest wa- 
riant badań ilustrowanych przykładami korpusowymi (punkt iv), w którym anali- 
zy korpusowe są tylko jednym z wielu źródeł danych (por. Hebal-Jezierska, 2013). 





5 Dane oraz miary automatycznie obliczone na bazie ręcznie zrównoleglonych i znakowanych dwu- 
języcznych korpusów równoległych nie wymagają dodatkowej weryfikacji materiału będącego podsta- 
wą tych obliczeń. W korpusach automatycznie zrównoleglonych i znakowanych zawsze zachodzi obawa 
uwzględnienia w wynikach błędnie zidentyfikowanych form językowych. Ponadto należy mieć na uwadze, 
że w niektórych korpusach nie przeprowadza się weryfikacji pisowni, a nawet języka. Na przykład w kor- 
pusie OPUS dochodzi do mylenia języków zapisanych cyrylicą (np. rosyjskojęzyczne teksty są uznane za 
ukraińskie), a w korpusie InterCorp niektóre bułgarskie utwory zostały włączone do zasobów rosyjskich. 

< Określenie „przybliżony” jest konieczne, bowiem korpus konstruowany w części na tłumaczeniach, 
a nie tylko na tekstach naturalnie powstałych w danym języku, jest pewnym przybliżeniem faktycznego ję- 
zyka. Tłumaczenia mogą zawierać elementy (leksykalne, składniowe itd.) generowane językiem oryginału. 
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W analizach i zastosowaniach generowanych korpusem (punkt v; por. Reynaert, 2006) 
zastosowanie ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusów rów- 
noległych jest bodaj najmniejsze, bowiem do tego typu analiz wymagane są bardzo 
duże korpusy (big data). Dobrym przykładem takiego korpusu jest rozwijany od 2010 
roku jednojęzyczny korpus monitorujący MoncoPL (Pęzik, 2020, http://monco.frazeo. 
pl/)”. Takie właśnie korpusy pozwalają na automatyczną analizę jakościowo-ilościową 
z myślą o konkretnych zastosowaniach praktycznych, także komercyjnych. Należy 
mieć na uwadze, że badania generowane korpusami wielojęzycznymi, najczęściej no- 
szą charakter stosowany, np. na rzecz rozwoju przekładu maszynowego. 

Drugi rodzaj odbiorców — programiści zajmujący się projektowaniem i wytwa- 
rzaniem narzędzi NLP — widzą w ręcznie zrównoleglonych i znakowanych dwuję- 
zycznych korpusach równoległych źródło do trenowania i testowania nowych oraz 
doskonalenia istniejących narzędzi językowych. Każdy tego typu korpus dostarcza 
trzech rodzajów danych: dla języka A, dla języka B oraz dla obu wzajemnie powiąza- 
nych ze sobą języków. Warto podkreślić, że polskojęzyczne zasoby wszystkich czte- 
rech przygotowywanych korpusów mogą być dowolnie łączone, co wydatnie zwięk- 
szy objętość ręcznie znakowanych zasobów dla języka polskiego. 

Ręcznie zrównoleglone i znakowane korpusy mogą zostać zastosowane w wypra- 
cowaniu algorytmów projekcji/rzutowania znaczeń z jednego języka na drugi. Szcze- 
gólnie chodzi tu o projekcję tych znaczeń, które w jednym języku są jednoznacznie 
wyrażane na płaszczyźnie formalnej, w drugim zaś — dochodzi do tzw. niedopowie- 
dzenia językowego (Koseska 8 Roszko, 2015), por. użycia polskiego kiedyś w dwóch 
różnych znaczeniach kwantyfikacyjnych kiedyś przyszedł i kiedyś przyjdzie wobec 
dwu litewskich form każkada i kada nors (litew. każkada atćjo [kiedyś przyszedł] 
a kada nors ateis [kiedyś przyjdzie]). Można również zakładać, że ręcznie zrównole- 
glone i znakowane korpusy równoległe mogą być pomocne w doskonaleniu narzędzi 
do automatycznego zrównoleglania zasobów dwujęzycznych. 

Ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe są ide- 
alnymi zasobami na rzecz rozwoju rekurencyjnych sieci neuronowych, w którego 
efekcie dochodzi do doskonalenia przekładu maszynowego i rozwoju sztucznej in- 
teligencji. Jednak należy podkreślić, że te korpusy nie mogą być wyłącznym źródłem 
zasobów treningowych algorytmów neuronowego tłumaczenia maszynowego ze 
względu na ograniczoną objętość. 





7 Korpus monitorujący to nieustannie rozwijany otwarty zasób jednojęzyczny. Jego główne cechy 
to diachroniczny charakter, referencyjność w ograniczeniu do próbkowanych rejestrów oraz duże tempo 
przyrostu (Leech, 2002; Pęzik, 2020). Przedstawiony tu jako przykład korpus MoncoPL dziennie zwiększa 
swą objętość o blisko 1,65 mln słów. Jest on uzupełniany, tagowany i lematyzowany automatycznie. 
Żadne dwujęzyczne korpusy równoległe, nawet te potencjalne utworzone ze wszystkich dostępnych 
tekstów równoległych dla obu języków nie mogą konkurować objętością z jednojęzycznymi korpusami 
monitorującymi. 
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3. Ręcznie zrównoleglone i znakowane dwujęzyczne korpusy 
równoległe a inne równoległe korpusy dwu- i wielojęzyczne 


Podstawowe różnice między znanymi korpusami wielojęzycznymi, takimi jak Inter- 
Corp (Ćermak 8 Rosen, 2012), Parallel Corpora of the Russian National Corpus (Ilo- 
6poBorbcknń i in., 2005), ParaSol (von Waldenfels, 2011), Polish-Russian Parallel 
Corpus (Łaziński 8 Kuratczyk, 2016), Opus (Tiedemann, 2016) itd. a powstającymi 
w ramach projektu CLARIN-PL (CLARIN-PL, b.d.) ręcznie zrównoleglonymi i zna- 
kowanymi dwujęzycznymi korpusami równoległymi to przede wszystkim charak- 
terystyczne dla tych ostatnich: staranny dobór zasobów z oceną merytoryczną tek- 
stu i jakości samego języka, wstępne zaawansowane przetwarzanie zasobów, ręczne 
zrównoleglenie i ręczne znakowanie, ponadto wprowadzenie rozbudowanych meta- 
danych i zastosowanie najnowszych standardów opisu zasobów i zapisu danych. Na 
każdym kluczowym etapie konstrukcji tych korpusów przeprowadzana jest kontrola 
jakościowa realizowanych zadań. Na przykład, zasoby każdego języka są niezależnie 
opisywane przez dwóch anotatorów. Wyniki ich pracy są przedstawiane trzeciemu 
(super)anotatorowi, który decyduje o ostatecznym wyniku ręcznego znakowania. 
Ręczne zrównoleglenie i znakowanie są czasochłonne i kosztowne. Dlatego konstru- 
owane cztery ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe 
będą miały zdecydowanie mniejszą objętość niż większość wyżej w tym akapicie wy- 
mienionych korpusów równoległych. Przyjęto, że objętość każdego korpusu osiągnie 
1 mln słowoform dla każdego języka. Ukończenie prac nad tymi korpusami jest pla- 
nowane na rok 2024. 

Rzeczone korpusy będą udostępnione odbiorcom w dwóch wariantach. W wersji 
do pobrania składającej się z szeregu plików zapisanych w aktualnych w momencie 
publikacji tych korpusów standardach. Ponadto z myślą o użytkownikach - bada- 
czach z szeroko rozumianych nauk humanistycznych i społecznych — zasoby będą 
dostępne w przeglądarce webowej KonText. Jak wiadomo, niektóre korpusy równole- 
głe nie posiadają interfejsu użytkownika, np. PELCRA Polish-Russian parallel corpus 
(PELCRA, b.d.). Warto również wspomnieć, że konstrukcja części korpusów wie- 
lojęzycznych przebiega automatycznie bez udziału i nadzoru człowieka. Wyjątkiem 
może tu być InterCorp (Ćermak 8 Rosen, 2012), w którym segmentacja części za- 
sobów wielojęzycznych została przeprowadzona ręcznie i oznaczona jako Core oraz 
korpusy wielojęzyczne CLARIN-PL (Duszkin i in., 2021), w których segmentacja 
zasobów przebiegała w dwóch etapach: po początkowym maszynowym zrównolegle- 
niu została przeprowadzona ręczna korekta. Możliwym niezamierzonym rezultatem 
automatycznej segmentacji zasobów są różnej wagi błędy we wzajemnym przypo- 
rządkowaniu segmentów w poszczególnych parach językowych. Ponadto niektóre 
korpusy wielojęzyczne nie są znakowane. Oznacza to istotne zubożenie funkcjonalno- 
ści wyszukiwania interesujących użytkownika form, wyrażeń. Znakowanie zasobów 
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korpusowych obejmuje między innymi tagowanie warstw morfologicznej, skład- 
niowej i semantycznej oraz lematyzację. We wszystkich znanych mi niekomercyj- 
nych korpusach wielojęzycznych tagowanie i lematyzacja zostały przeprowadzone 
automatycznie. Ten fakt pociąga za sobą znaczny odsetek źle zinterpretowanych 
form. Poniżej przedstawiam wybrane przykłady błędnego znakowania w Polsko- 
-Rosyjskim Korpusie Uniwersytetu Warszawskiego (Łaziński 8: Kuratczyk, 2016)3. 
W ścieżce wyborów przy konstrukcji zapytania dla zasobów polskojęzycznych po 
wybraniu: [Wyszukiwanie morfologiczne] — [Część mowy] — wybór "Rzeczownik” 
- [Kategorie gramatyczne] — wybór "Wołacz” uzyskałem odpowiedź (http://www. 
pol-ros.polon.uw.edu.pl/searchresults/searchmpl.php*stringpl=Ssubst=onSde- 
prt=onSvoc=onSlimitPI=10)? zawierającą między innymi takie zdania: 


1) Podporucznik Tadzio Jarzębski, piastujący stanowisko podkomisarza policji, 
punktualnie przybył na umówione miejsce. 

2) To ważysto kilo! 

3) Drzwi otworzyły się przed nim, zanim zdążył przyłożyć palecdo dzwonka 
[sic!]. 

4) Noszę nazwisko po jej synu, a na imię mam tak samo jak ona. 


Na początku należy zaznaczyć, że w odpowiedzi nie otrzymuje użytkownik żad- 
nego graficznego wyróżnienia wyszukanych form. Wytłuszczeniem zaznaczyłem te 
formy, które moim zdaniem mogły zostać błędnie zinterpretowane w automatycz- 
nym procesie tagowania. W zdaniu pierwszym domniemaną formą wołaczową jest 
Tadzio. Domyślam się, że tej słowoformie został błędnie przypisany potencjalny le- 
mat Tadzia, a następnie, zgodnie z paradygmatem jednak twardotematowym, fleksja 
wołacza -o. W drugim przykładzie zakładam, że formą wołaczową jest nieodmienny 
rzeczownik kilo. Możliwe, że nieodmienność tego leksemu oraz następujący po nim 
wykrzyknik mógł spowodować, że w automatycznym tagowaniu tej formie przypi- 
sano wartość wołacza. W kolejnym trzecim zdaniu trudno wskazać formę wołacza. 
Możliwe, że tager ustalił formę palecdo [sic!] jako wołaczową. W czwartym zdaniu 
formą zinterpretowaną jako wołacz jest zapewne synu. Jest to postać wspólna dla 
miejscownika i wołacza. Można przypuszczać, że algorytm interpretacji formy synu 
jako wołaczowej jest wynikiem koincydentacji samej postaci synu jako potencjalnie 
wołaczowej oraz następującego po niej przecinka, który zgodnie z normami języka- 
mi polskiego stosuje się po zwrotach w wołaczu. 





* Wybór tego korpusu jest zupełnie przypadkowy. Analogiczne odpowiedzi do przedstawianych tu 
przykładów błędnej interpretacji form są właściwe wszystkim cytowanym w tym artykule korpusom. 

*_W pierwszej dziesiątce odpowiedzi tylko w czterech zdaniach stwierdziłem użycie wołacza, dwu- 
krotnie Chryste Panie oraz pojedynczo Matko Boska i Panie (voc. sg. masc.). Łączna liczba segmentów, 
w których ma być notowany wołacz, wynosi 23.764, co w odniesieniu do objętości korpusu (łącznie 30 mln 
polskich i rosyjskich słowoform) wydaje się liczbą nieprawdopodobną. 
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Przedstawione tu wybrane przykłady możliwych błędów w automatycznie lub 
półautomatycznie konstruowanych korpusach, nie negują użyteczności tak utworzo- 
nych korpusów. Istotną wskazówką dla potencjalnego użytkownika może być przede 
wszystkim czas opublikowania korpusu oraz data ostatniej aktualizacji. Czym star- 
szy korpus i/lub dużo czasu upłynęło od jego aktualizacji, tym prawdopodobieństwo 
wystąpienia błędów jest wyższe. Jest to pochodną użycia do automatycznego znako- 
wania zasobów starszych mniej doskonałych narzędzi. Niezależnie od potencjalnych 
błędów takie korpusy są użyteczne do prowadzenia wielu badań. Co innego, gdy taki 
korpus ma służyć trenowaniu narzędzi. Wówczas niezastąpione są ręcznie zrównole- 
glone i znakowane dwujęzyczne korpusy równoległe. Są one podstawą do konstruk- 
cji wielu niezbędnych w nieliniowym przetwarzaniu języka naturalnego narzędzi. 


4. Zasady konstrukcji ręcznie zrównoleglonych i znakowanych 
dwujęzycznych korpusów równoległych 


W realizowanym projekcie CLARIN-PL w początkowym okresie (TV kwartał 2020 — 
początek 2021) opracowano metodologię konstrukcji ręcznie zrównoleglonych 
i znakowanych dwujęzycznych korpusów równoległych. Nim jednak doszło do 
sformułowania założeń konstrukcji tego typu korpusów, gruntownie zapoznano się 
z istniejącymi korpusami jednojęzycznymi i wielojęzycznymi równoległymi i po- 
równawczymi, zwłaszcza z tymi, w których są reprezentowane języki bałtyckie i sło- 
wiańskie. Wyniki przeprowadzonej eksploracji „rynku korpusowego” zamieszczono 
w czterech obszernych zamkniętych raportach CLARIN-PL-BIZ autorstwa Jakuba 
Banasiaka (IS PAN), Pawła Kowalskiego (IS PAN), Danuty Roszko (UW) i Roma- 
na Roszko (IS PAN). W tych raportach również zawarto szczegółową informację 
o rynku komercyjnych i znajdujących się w wolnym dostępie narzędzi językowych, 
wskazano potencjalne źródła wielojęzycznych zasobów i mechanizmy automatycz- 
nego pozyskiwania takich danych, np. LAMBERT (Garncarek i in., 2021). Dokonano 
ewaluacji dostępnych tagerów dla języków słowiańskich i bałtyckich. Zapoznano się 
również z literaturą przedmiotu, w której krytycznie odnoszono się do już powsta- 
łych korpusów (Charciarek, 2018, 2019a, 2019b; Piotrowski 8: Grabowski, 2013), 
w tym też z pracami zbiorowymi poruszającymi temat korpusów wielojęzycznych 
(Gruszczyńska x Leńko-Szymańska, 2016; Hebal-Jezierska, 2014 i wiele innych). 
Sporo uwagi poświęcono rynkowi użytkowników takich korpusów. Tu głównie wy- 
korzystano dane Centrum Wiedzy PolLinguaTec CLARIN-PL, do którego zgłaszają 
się użytkownicy (również potencjalni) i przedstawiają swoje oczekiwania wobec in- 
frastruktury badawczej. Nie mniejszą rolę przywiązano do sugestii i wskazań Ze- 
społu Oceniającego Ministerstwa Edukacji i Nauki (powołanego przez MEiN) oraz 
prężnie działającej Rady Programowej CLARIN-PL, powołanej przez konsorcjum 
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CLARIN-PL na polecenie MEiN. Wyznaczone w wyżej opisanym procesie poten- 
cjalne prace projektowe zostały ostatecznie sprecyzowane w bezpośrednim kontakcie 
z przedstawicielami innych centrów technologii językowych (w Bułgarii, Czechach, 
Litwie, Rosji i Słowenii") mniej lub bardziej związanych z CLARIN-ERIH. Ostatecz- 
nie dokonano wyboru języków, które na pierwszym etapie prac zostaną włączone 
do przygotowywanych ręcznie zrównoleglonych i znakowanych dwujęzycznych kor- 
pusów równoległych. Ustalono poniższe pary językowe: polsko-bułgarską, polsko- 
-litewską, polsko-rosyjską i polsko-słoweńską. Dokonany przez zespół CLARIN-PL 
wybór dobrze koresponduje z językoznawczym stanowiskiem o różnorodności ty- 
pologicznej tych języków. Zauważmy, z jednej strony włączony został syntetyczny 
język litewski o stosunkowo zachowawczej i przejrzystej budowie morfologicznej, 
dużej regularności gramatykalizacji znaczeń, z drugiej zaś — analityczny i innowacyj- 
ny (rodzajnik, struktury aspektualno-temporalne, utrata deklinacji przy zachowaniu 
form wołacza i inne wspólne dla bałkańskiej ligi językowej cechy) język bułgarski. 
Typologicznie języki rosyjski i polski są sytuowane pomiędzy syntetycznym językiem 
litewskim i analitycznym językiem bułgarskim. 

Na etapie wstępnym prac nad tymi korpusami ustalono zasady selekcji utworów, 
ustalono wzorzec wewnętrznego zrównoważenia dla poszczególnych korpusów. 

Poniżej przedstawiam kluczowe etapy prac, których wynikiem będą pierwsze 
cztery ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe języków 
słowiańskich i bałtyckich: 


1. selekcja próbek (tekstów) z dbałością o poprawność językową, właściwe we- 
wnętrzne zrównoważenie zasobów i zbalansowaną reprezentację rejestrów; 

2. nadzorowane automatyczne wstępne przetwarzanie tekstów (obejmuje mię- 
dzy innymi czyszczenie, korektę błędów pisowni i interpunkcji oraz wstępną 
tokenizację); 

3. ręczna segmentacja na poziomie zdania w parach językowych w oparciu 
o ściśle zdefiniowane wzorce wyróżniania i uzgadniania międzyjęzykowych 
odpowiedniości; 

4. ręczna segmentacja na poziomie najmniejszych wyróżnianych jednostek, 
tzw. tokenów, prowadzona dla każdego języka niezależnie; 

5. ręczna dwuetapowa lematyzacja tokenów, polegająca na niezależnym opisie 
form każdego języka przez dwóch anotatorów (etap 1), a następnie na zesta- 
wieniu tych wyników i, w przypadku rozbieżnego znakowania, wskazaniu 
wersji ostatecznej przez superanotatora (etap 2); 

6. ręczne dwuetapowe znakowanie warstwy fleksyjnej (por. wyżej p. 5); 





' Współpraca z ośrodkami zagranicznymi opiera się na obustronnej wymianie lub jednostronnym 
wsparciu w zakresie istniejących i powstających technologii językowych oferowanych przez te ośrodki, 
przydatnych do realizacji opisywanych tu zadań projektowych CLARIN-PL-BIZ. 
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7. przygotowanie rozbudowanego opisu zasobów (metadane); 

8. konwersja danych do obowiązujących standardów (dla zastosowań trenin- 
gowych) oraz przygotowanie wersji zgodnej z KonTextem; 

9. rozbudowa interfejsu KonTextu, obejmująca między innymi utworzenie 
konstruktora zapytań oraz rozbudowanej sekcji wyboru zasobów na pod- 
stawie wartości zdefiniowanych w metadanych. 


Rozważane jest pozyskiwanie quasi-równoległych danych w automatycznym 
przeszukiwaniu zasobów sieciowych z wykorzystaniem narzędzi LASER czy LAM- 
BERT. Decyzja o włączeniu tego typu danych jeszcze nie zapadła. Za jej włączeniem 
przemawia możliwość pozyskania do korpusów doniesień prasowych, które w całości 
lub w części są tłumaczone na wiele języków. Wśród doniesień agencyjnych zdarzają 
się również tłumaczenia wypowiedzi konkretnych osób (polityków, przywódców du- 
chowych itd.). Za niewłączaniem tego typu tekstów przemawia konieczność wydzie- 
lenia tych zasobów w osobnej części korpusu, quasi-równoległy charakter tego typu 
wiadomości oraz duża liczba krótkich/hasłowych tekstów (cytatów). Zastosowanie 
takich danych z natury nieciągłych w udoskonalaniu maszynowego tłumaczenia jest 
mniej skuteczne niż w przypadku użycia właściwych zasobów równoległych. 


5. O wpływie ręcznie zrównoleglonych i znakowanych 
dwujęzycznych korpusów równoległych na badania z zakresu 
szeroko rozumianych nauk humanistycznych i społecznych 


Po zakończeniu prac nad ręcznie zrównoleglonymi i znakowanymi dwujęzycznymi 
korpusami równoległymi ich zasoby zostaną udostępnione między innymi w webo- 
wej przeglądarce KonText. To ten wariant publikacji korpusów jest przede wszystkim 
kierowany do użytkowników reprezentujących nauki humanistyczne i społeczne. 
Opisana w przypisie 3. funkcjonalność przeglądarki KonText w połączeniu z przygo- 
towanymi z dbałością o możliwie najwyższą jakość zasobów umożliwi językoznaw- 
com prowadzenie wyczerpujących badań i analiz. 

Warto też wspomnieć o pośrednim zastosowaniu tych korpusów w badaniach 
humanistycznych i społecznych. Mam tu na myśli wszelkie nowe zasoby oraz narzę- 
dzia i programy przetwarzania języka naturalnego, do których powstania po części 
przyczynią się te właśnie ręcznie zrównoleglone i znakowane dwujęzyczne korpusy 
równoległe. Jak już wspominałem, nadrzędnym celem konstrukcji tych korpusów 
jest doskonalenie modeli międzyjęzykowych, które wpłyną na poprawę istniejących 
oraz utworzenie nowych narzędzi NLP. Spodziewać się można, że wytrenowane i/lub 
testowane na tych korpusach narzędzia będą szeroko stosowane przez badaczy nauk 
humanistycznych i społecznych. Nie można też zapominać o decydującym wpływie 
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modeli międzyjęzykowych na poprawę przekładu maszynowego oraz doskonalenia 
zyskujących na popularności wielojęzycznych chatbotów do automatycznej obsługi 
klientów. 


6. Podsumowanie 


Opisane w tym artykule ręcznie zrównoleglone i znakowane dwujęzyczne korpusy 
równoległe powstają z myślą o dostarczeniu badaczom i programistom wzorcowych 
zasobów do badań naukowych (z zakresu nauk humanistycznych i społecznych) 
i prac projektowych w obszarze szeroko rozumianego przetwarzania języka natu- 
ralnego. W ramach przedstawionego projektu CLARIN-PL-BIZ są konstruowane 
cztery takie korpusy: polsko-bułgarski, polsko-litewski, polsko-rosyjski i polsko- 
-słoweński. Cechą wyróżniającą te korpusy na tle innych dwujęzycznych korpusów 
równoległych jest odstąpienie od użycia jakichkolwiek narzędzi automatyzujących 
pracę. Wszystkie etapy konstrukcji tych korpusów są i będą realizowane przez zespół 
specjalistów-językoznawców. Zakładana objętość każdego korpusu wyniesie około 
miliona słowoform. Ręcznie zrównoleglone i znakowane zasoby polskie wszystkich 
czterech korpusów zostaną połączone i udostępnione jako kolejny ręcznie znako- 
wany korpus języka polskiego. Obok znanych i szeroko stosowanych ręcznie znako- 
wanego milionowego podkorpusu NKJP (Przepiórkowski i in., 2012) i nieustannie 
rozwijanego Korpusu Języka Polskiego Politechniki Wrocławskiej (Marcińczuk i in., 
2015) będzie to trzeci potencjalny zasób treningowy. Ukończenie prac nad planowa- 
nymi czterema korpusami jest przewidywane w roku 2024. Zostaną one udostępnio- 
ne w przeglądarce KonText na stronie CLARIN-PL oraz w postaci opisanych plików 
źródłowych w repozytorium dSpace także na stronie CLARIN-PL. Zasoby umiesz- 
czone w przeglądarce KonText są kierowane głównie do przedstawicieli nauk huma- 
nistycznych i społecznych. Natomiast odbiorcami plików źródłowych tych korpusów 
będą zespoły lingwistyczno-informatyczne CLARIN-PL pracujące nad konstrukcją 
nowych zaplanowanych i już opracowywanych narzędzi językowych dla języków 
polskiego, bułgarskiego, litewskiego, słoweńskiego i rosyjskiego. Otwarty charakter 
tych korpusów sprawi, że również inni twórcy oprogramowania będą mogli stosować 
te zasoby do trenowania i testowania własnych modeli międzyjęzykowych na rzecz 
nieustającego rozwoju sztucznej inteligencji. 

Usługi oferowane przez CLARIN-PL są kompleksowe. Każdy zarejestrowany 
użytkownik może samodzielnie utworzyć własny korpus (korpusy) badawczy, depo- 
nując jego zasoby w bezpiecznej chmurze (Clarin Cloud, https://nextcloud.clarin-pl. 
eu/) i/lub w Repozytorium (dSpace, https://clarin-pl.eu/dspace/). Każdym zasobom 
użytkownik przypisuje stosowne prawa i decyduje o ewentualnym udostępnieniu in- 
nym badaczom (zdefiniowanym, konkretnym, grupom, wszystkim itd.). Wszystkie 
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zasoby umieszczone w dSpace gwarantują synchronizację z narzędziami oferowany- 
mi przez CLARIN-PL oraz zewnętrznymi udostępnionymi w ramach europejskiej 
platformy CLARIN ERIH. Od lat działające Centrum Wiedzy PolLingua Tec służy 
natychmiastową pomocą użytkownikom. Na stronach CLARIN-PL przystępnie opi- 
sane są wszelkie oferowane zasoby (https://clarin-pl.eu/index.php/zasoby/) i narzę- 
dzia/usługi (https://clarin-pl.eu/index.php/uslugi/). W Mediatece (https://clarin-pl. 
eu/index.php/mediateka/) zamieszczono praktyczne instrukcje narzędzi, materiały 
warsztatowe, publikacje i prezentacje. Znajdują się tam również linki do wielu pro- 
jektów z zakresu e-humanistyki w Polsce. Na stronach CLARIN-PL (https://clarin-pl. 
eu/dspace/) udostępniono użytkownikom wyszukiwarkę zasobów i narzędzi języko- 
wych. Warto odnotować istnienie kanału CLARIN-PL na YouTube (https://www. 
youtube.com/channel/UCqrhEITxu8_MIWPnFdYomPw/videos), gdzie dostępne są 
filmy instruktażowe oraz nagrania z konferencji i warsztatów. 
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O nowych ręcznie zrównoleglonych i znakowanych 
dwujęzycznych korpusach równoległych 
oraz ich zastosowaniach 


Streszczenie 


W artykule autor opisuje obecnie powstające ręcznie zrównoleglone i znakowane 
dwujęzyczne korpusy równoległe CLARIN-PL-BIZ języków bałtyckich i słowiań- 
skich. Omawia wyróżniające cechy tych korpusów, które sprawią, że zastosowania 
tych korpusów znacznie wykroczą poza typowe analizy korpusowe. Wśród zasto- 
sowań tych korpusów autor wymienia definiowanie modeli międzyjęzykowych na 
rzecz rozwoju przekładu maszynowego i rozwoju sztucznej inteligencji. Zwraca rów- 
nież uwagę na wysoki potencjał tych zasobów jako wzorcowej bazy treningowej do 
testowania narzędzi przetwarzania języka naturalnego. 


Słowa kluczowe: ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równo- 
ległe; język litewski; języki słowiańskie; narzędzia językowe; CLARIN-PL 
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On New Manually Aligned and Tagged Bilingual Parallel Corpora 
and Their Applications 


Abstract 


This article is devoted to the manually aligned and tagged bilingual parallel CLAR- 
IN-PL-BIZ corpora of the Baltic and Slavic languages which are currently being de- 
veloped. The study discusses the essential features of these corpora that make their 
applications go far beyond typical corpus analysis. Applications of these corpora 
include the design of cross-language models for the development of machine trans- 
lation and artificial intelligence. The article also draws attention to the high potential 
of these resources as a model training base for testing natural language processing 
tools. 


Keywords: manually aligned and tagged bilingual parallel corpora; Lithuanian lan- 
guage; Slavic languages; language tools; CLARIN-PL 
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